Resumo A tradução automática (TA) é usada para obter corpus anotados partindo de corpus da língua inglesa, que podem ser aplicáveis a diferentes tarefas de processamento de linguagem natural (PLN). Levando em conta que existem mais recursos ou conjuntos de dados para treinamento de modelos PLN em inglês, este artigo explora a aplicação da TA para automatizar tarefas PLN em espanhol. Desta forma, o artigo descreve um conjunto de dados para extração de relações genéricas (reACE) e a construção de um modelo de extração semântica de relações em espanhol (ER), baseado no conjunto de amostras traduzidas do inglês para o espanhol. Os resultados mostram que para a tarefa de TA é necessário implementar um processo de pré-edição do corpus em inglês, a fim de evitar erros de tradução e pós-edição e manter as anotações do corpus original. Os modelos ER em espanhol alcançam medidas de acurácia, completude e valor F comparáveis às obtidas pelo modelo na língua inglesa, o que sugere que a tradução automática é uma ferramenta útil para realizar tarefas de PLN na língua espanhola.
Resumen La traducción automática (TA) se utiliza para obtener corpus anotados a partir de corpus provenientes del idioma inglés, los cuales pueden ser aplicables a diferentes tareas de procesamiento de lenguaje natural (PLN). Teniendo en cuenta que existen más recursos o conjuntos de datos para entrenamiento de modelos de PLN en idioma inglés, en este trabajo se explora la aplicación de la TA para automatizar tareas de PLN en el idioma español. De esta forma, en el artículo se describe un conjunto de datos para la extracción de relaciones genéricas (reACE) y la construcción de un modelo extracción semántica de relaciones en español (ER), basado en el conjunto de muestras traducidas del idioma inglés al español. Los resultados muestran que para la tarea de TA es necesario implementar un proceso de preedición del corpus en inglés, con el fin de evitar errores de traducción, posedición y mantener las anotaciones del corpus original. Los modelos ER en español alcanzan medidas de precisión, exhaustividad y valor-F comparables con las obtenidas por el modelo en el lenguaje de inglés, lo que sugiere que la traducción automática es una herramienta útil para realizar tareas de PLN en el idioma español.
Abstract Machine translation (MT) is used to obtain annotated corpus of English corpus which can be applicable to different natural language processing (NLP) tasks. Considering that there are more resources or data sets for training NLP models in English language, this paper explores the application of MT to automate NLP tasks in Spanish. Thus, the article describes a dataset for the extraction of generic relations (reACE) and the construction of a semantic extraction model of relations in Spanish (ER), based on the set of samples translated from English to Spanish. The results show that for the MT task it is necessary to implement a corpus pre-editing process in English to avoid translation and post-editing errors and maintain the original corpus annotations. The ER models in Spanish achieve measures of accuracy, completeness, and F-value comparable to those obtained by the model in the English language, which suggests that machine translation is a useful tool to perform NLP tasks in the Spanish language.
Résumé La traduction automatique (TA) est utilisée pour obtenir des corpus annotés à partir de corpus de langue anglaise, qui peuvent être applicables à différents travaux de traitement du langage naturel (NLP). En tenant compte du fait qu'il existe davantage de ressources ou d'ensembles de données pour la formation de modèles PLN en langue anglaise, cet article explore l'application de la TA pour automatiser les travaux PLN en langue espagnole. Ainsi, l'article décrit un ensemble de données pour le prélèvement de relations génériques (reACE) et la construction d'un modèle de prélèvement de relations sémantiques en espagnol (ER), basé sur l'ensemble des échantillons traduits de l'anglais à l'espagnol. Les résultats montrent que pour le travail de TA, il est nécessaire de mettre en ceuvre un processus de pré-édition du corpus anglais, afin d'éviter les erreurs post-édition de traduction et de garder les annotations du corpus original. Les modèles ER en espagnol atteignent des mesures de précision, de complétude et de valeur F comparables à celles obtenues par le modèle en langue anglaise, ce qui suggère que la traduction automatique est un outil utile pour accomplir des travaux PLN en langue espagnole.